

from spire.pdf import *
from spire.pdf.common import *

# 创建PdfDocument类的实例
pdf = PdfDocument()

# 加载PDF文档
pdf.LoadFromFile("../pdf_ananlysis/2000.pdf")

# 创建一个TXT文件来保存提取的文本
extractedText = open("Output/提取文本.txt", "w", encoding="utf-8")

# 遍历文档的每一页
for i in range(pdf.Pages.Count):
    # 获取页面
    page = pdf.Pages.get_Item(i)
    # 从页面提取文本
    text = page.ExtractText()
    # 将文本写入TXT文件
    extractedText.write(text + "\n")

extractedText.close()
pdf.Close()